在 Day 16 目前大型語言模型 (LLM) 的基礎,Transformer 提到大型語言模型的基礎是 Transformer,而大型語言模型直白的說,也就是經過大量文字資料訓練的模型,通常包含數十億到上千億的參數。這些參數讓模型能夠學習語言的語法 (Syntax)、語意 (Semantics) 和語境 (Context) 關係,才能在各種自然語言處理任務中自動生成文字。
預訓練 (Pre-Training)
在大規模文字資料集上訓練模型的過程。在這個階段,模型會學習語言的基本結構和規則,包括語法、語意、語境關係和某些常識性知識。預訓練的目的是讓模型掌握廣泛的語言知識,使其具備通用的語言理解能力。
在預訓練過程中,模型通常有以下任務
微調 (Fine-Turining)
在預訓練完成後,模型會在特定任務或領域的標註資料上進行微調,來提高其在特定應用場景中的結果。例如微調後的模型可以更加精確地回答問答系統中的問題或生成特定風格的文字。
微調的過程如下
簡言之,預訓練就是基礎的語言基礎,像是知道怎麼跟人對話溝通。而微調則是專業的內容,例如讓模型了解物理或化學知識。
如果要了解大型語言模型的應用與挑戰,可以參考之前 Day 3 生成式 AI 與自然語言處理的文章。